Regressão Logística

Prof. Letícia Raposo

UNIRIO

Introdução

Técnica estatística utilizada para modelar a relação entre uma variável dependente binária (resposta) e uma ou mais variáveis independentes (explicativas).
Ajuda a entender a influência das variáveis independentes na variável dependente.
Permite prever a probabilidade de ocorrência de um evento.

Variáveis

Variáveis independentes: são as variáveis explicativas ou preditoras que são usadas para prever ou explicar a variação na variável dependente. Elas são representadas por \(x_1, x_2, x_3, \ldots, x_n\) e podem ser contínuas ou categóricas.
Variável dependente: representa o evento ou resultado a ser previsto. Pode assumir apenas dois valores: 0 (não ocorre o evento) ou 1 (ocorre o evento).

Por que usar a regressão logística em vez da regressão linear?

A regressão linear é amplamente utilizada para modelar a relação entre variáveis independentes e uma variável dependente contínua.
No entanto, quando a variável dependente é binária, a regressão linear não é apropriada, pois ela pode resultar em previsões fora do intervalo desejado de 0 a 1.

Função Logit e Transformação Logística

Por que usar a regressão logística em vez da regressão linear?

A regressão logística transforma a equação da regressão linear em uma função que fornece a probabilidade de ocorrência do evento.
A transformação ocorre utilizando a função logit, que é aplicada à equação da regressão linear.
A função logit é definida como o logaritmo da razão entre a probabilidade de ocorrência do evento e a probabilidade de não ocorrência.

\[\text{logit}(p) = \log\left(\frac{p}{1 - p}\right)\]

Função Logit e Transformação Logística

Após a aplicação da função logit, a equação se torna linear em termos da log-odds (logaritmo da razão de chances). A log-odds é a transformação do valor de y para a escala logit, que varia de menos infinito a mais infinito.

\[\text{logit}(p) = \log\left(\frac{p}{1 - p}\right)\]

\[\log\left(\frac{y}{1 - y}\right) = \beta_0 + \beta_1x_1 + \beta_2x_2 + \ldots + \beta_nx_n\]

Função Logit e Transformação Logística

Após a aplicação da função logit, é necessário reverter essa transformação para obter a probabilidade de ocorrência do evento. Essa reversão é feita utilizando a função sigmoidal, que converte o valor resultante da função logit em uma probabilidade entre 0 e 1.

\[\log\left(\frac{y}{1 - y}\right) = \beta_0 + \beta_1x_1 + \beta_2x_2 + \ldots + \beta_nx_n\] \[e^{\log\left(\frac{y}{1 - y}\right)} = e^{\beta_0 + \beta_1x_1 + \beta_2x_2 + \ldots + \beta_nx_n}\] \[\frac{y}{1 - y} = e^{\beta_0 + \beta_1x_1 + \beta_2x_2 + \ldots + \beta_nx_n}\]

Função Logit e Transformação Logística

A equação da regressão linear é transformada na equação da regressão logística, que permite estimar a probabilidade de ocorrência do evento com base nas variáveis independentes. Essa probabilidade é então utilizada para tomar decisões ou realizar previsões em problemas de classificação binária.

\[P(y) = \frac{1}{1 + e^{-(\beta_0 + \beta_1x_1 + \beta_2x_2 + \ldots + \beta_nx_n)}}\]

Exemplo

Suponha que um estudo esteja investigando a probabilidade de ocorrência de uma determinada doença em uma população de animais.

As variáveis independentes são o tipo de habitat (floresta, savana), a presença de água (sim, não) e a temperatura média do ambiente.
A variável resposta seria a ocorrência (1) ou não (0) da doença nos animais da população.

Modelo da regressão logística

# Realizar a regressão logística
modelo <- glm(doenca ~ habitat + agua + temperatura, data = dados, family = binomial(link = "logit"))

# Visualizar os resultados
summary(modelo)


Call:
glm(formula = doenca ~ habitat + agua + temperatura, family = binomial(link = "logit"), 
    data = dados)

Coefficients:
                Estimate Std. Error z value Pr(>|z|)    
(Intercept)     -1.07601    1.58201  -0.680    0.496    
habitatFloresta  0.75299    0.64323   1.171    0.242    
aguaSim         -4.05929    0.69591  -5.833 5.44e-09 ***
temperatura      0.09190    0.06228   1.476    0.140    
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 125.374  on 99  degrees of freedom
Residual deviance:  68.166  on 96  degrees of freedom
AIC: 76.166

Number of Fisher Scoring iterations: 5

Interpretando os coeficientes da regressão logística

Razão de chances: Uma maneira comum de interpretar os coeficientes em regressão logística é calcular a razão de chances (odds ratio).
- Ela é calculada como a razão entre as chances do evento ocorrer em um determinado grupo comparado a um grupo de referência.

Interpretando os coeficientes da regressão logística

# Obter as razões de chances
library(gtsummary)
tbl_regression(modelo, exponentiate = T)

Characteristic	OR	95% CI	p-value
habitat
Caverna	—	—
Floresta	2.12	0.61, 8.00	0.2
agua
Não	—	—
Sim	0.02	0.00, 0.06	<0.001
temperatura	1.10	0.97, 1.24	0.14
Abbreviations: CI = Confidence Interval, OR = Odds Ratio

Interpretando as ORs

Habitat (referência: Caverna):
- Indivíduos na Floresta apresentam 112% mais chances do desfecho (OR = 2,12) em comparação às cavernas.
- Entretanto, o intervalo de confiança é amplo (0,61–8,00) e o resultado não é estatisticamente significativo (p = 0,20), indicando alta incerteza.
Água (referência: Não):
- A presença de água está associada a uma redução de aproximadamente 98% nas chances do desfecho (OR = 0,02).
- O efeito é estatisticamente significativo (p < 0,001), indicando forte evidência de associação negativa.
Temperatura:
- Cada aumento de uma unidade na temperatura está associado a um aumento de cerca de 10% nas chances do desfecho (OR = 1,10).
- No entanto, o intervalo de confiança inclui ausência de efeito (0,97–1,24) e o resultado não é significativo (p = 0,14).

Pressupostos da regressão logística

Desfecho binário: a variável dependente assume dois estados.
Independência das observações: as observações não devem ser correlacionadas.
Linearidade no logito: relação linear entre os preditores e o logaritmo das chances.
Ausência de multicolinearidade: preditores não altamente correlacionados.
Ausência de outliers influentes: nenhuma observação deve exercer influência excessiva no ajuste do modelo.

Seleção de variáveis na regressão logística

Critérios estatísticos: seleção baseada na relevância das variáveis no modelo.
- Valor-p: indica significância estatística dos preditores.
- AIC (Akaike Information Criterion): equilibra qualidade do ajuste e complexidade; valores menores são preferíveis.
- BIC (Bayesian Information Criterion): penaliza mais fortemente modelos complexos, favorecendo soluções mais parcimoniosas.

Seleção de variáveis na regressão logística

Seleção por etapas: procedimento iterativo de inclusão ou exclusão de variáveis.
- Stepwise: combina seleção progressiva (forward) e regressiva (backward).
- Forward: adiciona variáveis conforme melhoria do ajuste.
- Backward: remove variáveis conforme critérios de ajuste.

📚 Referências bibliográficas

BARBETTA, Pedro Alberto. Estatística aplicada às ciências sociais. Ed. UFSC, 2008.
DANCEY, Christine P.; REIDY, John G.; ROWE, Richard. Estatística Sem Matemática para as Ciências da Saúde. Penso Editora, 2017.
HAIR, J. F. et al. Multivariate data analysis. Cengage. Hampshire, United Kingdom, 2019.